攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍 随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。 交大 字节 rl rl训练 交大字节 2025-09-13 16:26 3